[Day2] 學習目標

2024 iThome 鐵人賽

DAY 2

Python

16th鐵人賽

433 瀏覽

在此次的30天鐵人賽過程中，我大致上會將學習過程分成幾個階段，分別為:

-網路爬蟲之概念、流程、原理介紹
-爬蟲實際範例詳細介紹
-Python使用語法概念學習
-實際創作

在本日我將會先簡述各個主題的學習目標及規劃，以下是內容的介紹:
(本學習計畫安排有使用ChatGPT作為輔助工具)

第一階段：網路爬蟲之概念、流程、原理介紹

學習目標：
• 理解網路爬蟲的基本概念和工作流程
• 掌握爬蟲的基礎理論，像是HTTP協議、HTML結構、反爬蟲機制

內容規劃：

網路爬蟲之基本概念
o 學習什麼是爬蟲，並了解它的應用場景。
o 爬蟲如何發送請求並獲取網頁數據。
o 爬蟲的法律與道德問題（如網站的使用條款、隱私政策等）。
爬蟲工作流程
o HTTP請求/響應機制介紹，學習GET與POST請求的區別。
o 理解網頁的生命週期與瀏覽器渲染的過程。
HTML/CSS基礎
o 學習HTML標籤、屬性、DOM結構等基礎知識。
o 掌握如何從HTML結構中識別需要抓取的數據。
反爬蟲機制
o 常見的反爬蟲技術，如IP封鎖、頻繁請求限制、Captcha驗證。
o 如何設置請求頭模擬瀏覽器行為。
o 如何使用代理IP、設置隨機延遲來避免被封鎖。

第二階段：爬蟲實際範例詳細介紹

學習目標：
• 了解網路上現有的爬蟲範例，分析不同應用場景中的技術實現
• 學習如何從實際案例中提取關鍵技術與解決方案，應對不同類型網站的爬取需求

內容規劃：

範例1：靜態網站數據抓取
o 閱覽一些經典的靜態網站爬蟲範例，例如新聞網站或商品比價平台。
學習如何抓取靜態頁面中的數據，例如文章標題、商品價格等。

o 學習分析該範例中使用的技術工具，如requests與BeautifulSoup。
o 討論範例的結構設計、如何解析HTML，以及數據提取的具體步驟。
範例2：動態網站數據抓取
o 搜尋電商網站或社交媒體平台的實例，
o 學習理解Selenium或Playwright這些工具的模擬瀏覽器行為，
嘗試解決JavaScript渲染的問題。
o 嘗試學習範例中的挑戰，如動態加載、無限滾動頁面等，
並分析如何應對這些技術難題。
範例3：應對反爬蟲機制
o 找尋一些突破反爬蟲技術的範例
o 探討範例中的反爬蟲措施是如何實施的，並了解解決方案。
o 學習範例的調試過程和如何通過優化提高穩定性。

第三階段：Python使用語法概念學習

學習目標：
• 掌握Python的基本語法與數據處理工具，熟悉常用爬蟲相關庫的使用
• 為實作更複雜的爬蟲奠定基礎

內容規劃：

Python基礎語法複習
o 變數、資料結構（如列表、字典）、條件判斷與迴圈等基礎語法。
o 文件讀寫操作，將爬取到的數據存入文件或數據庫。
常用爬蟲庫學習
o requests：學會如何發送HTTP請求，模擬瀏覽器進行網頁訪問。
o BeautifulSoup：解析HTML，提取指定的數據。
o Selenium：模擬使用者的操作，爬取動態加載的數據。
o Scrapy：學習這個高效爬蟲框架(大規模爬取需求)。
數據處理與存儲
o pandas：學習如何處理數據，並將抓取到的資料轉換為結構化數據。
o CSV與JSON文件存儲：將數據寫入CSV或JSON文件，並學習從文件中讀取數據。
o 打好資料庫的基礎：試著了解如何使用SQLite或是MySQL將數據存入資料庫。